۲۹ شهریور ۱۴۰۴فارسی

راهنمای جامع تکنیک‌های انتخاب ویژگی Scikit-learn برای کاهش ابعاد، توانمندسازی متخصصان علم داده جهانی برای ساخت مدل‌های کارآمدتر و قوی‌تر.

انتخاب ویژگی در Scikit-learn: تسلط بر کاهش ابعاد برای مجموعه داده‌های جهانی

در دنیای همیشه در حال گسترش داده، حجم بالای ویژگی‌ها می‌تواند حتی پیچیده‌ترین مدل‌های یادگیری ماشین را نیز تحت تأثیر قرار دهد. این پدیده که اغلب از آن به عنوان "نفرین ابعاد" یاد می‌شود، می‌تواند منجر به افزایش هزینه‌های محاسباتی، کاهش دقت مدل و کاهش قابلیت تفسیر شود. خوشبختانه، تکنیک‌های انتخاب ویژگی و کاهش ابعاد راه‌حل‌های قدرتمندی ارائه می‌دهند. Scikit-learn، سنگ بنای اکوسیستم یادگیری ماشین پایتون، مجموعه‌ای غنی از ابزارها را برای مقابله مؤثر با این چالش‌ها فراهم می‌کند و آن را به منبعی ضروری برای دانشمندان داده در سراسر جهان تبدیل کرده است.

این راهنمای جامع به پیچیدگی‌های قابلیت‌های انتخاب ویژگی Scikit-learn می‌پردازد و بر کاهش ابعاد تمرکز می‌کند. ما روش‌های مختلف، اصول زیربنایی آن‌ها، پیاده‌سازی عملی با مثال‌های کد، و ملاحظات مربوط به مجموعه داده‌های جهانی متنوع را بررسی خواهیم کرد. هدف ما این است که شما، مخاطبان جهانی ما از متخصصان مشتاق و با تجربه داده، را با دانش لازم برای اتخاذ تصمیمات آگاهانه در مورد انتخاب ویژگی، که منجر به مدل‌های یادگیری ماشین کارآمدتر، دقیق‌تر و قابل تفسیرتر می‌شود، مجهز کنیم.

درک کاهش ابعاد

پیش از آنکه به ابزارهای خاص Scikit-learn بپردازیم، درک مفاهیم بنیادی کاهش ابعاد بسیار مهم است. این فرآیند شامل تبدیل داده‌ها از یک فضای با ابعاد بالا به یک فضای با ابعاد پایین‌تر است، در حالی که تا حد امکان اطلاعات مهم حفظ می‌شوند. مزایای آن بی‌شمار است:

کاهش بیش‌برازش (Overfitting): ویژگی‌های کمتر به معنای مدلی ساده‌تر است که کمتر مستعد یادگیری نویز در داده‌های آموزشی است.
زمان‌های آموزش سریع‌تر: مدل‌هایی با ویژگی‌های کمتر، به طور قابل توجهی سریع‌تر آموزش می‌بینند.
بهبود قابلیت تفسیر مدل: درک روابط بین ویژگی‌های کمتر آسان‌تر است.
کاهش فضای ذخیره‌سازی: ابعاد پایین‌تر به حافظه کمتری نیاز دارد.
کاهش نویز: ویژگی‌های نامربوط یا اضافی را می‌توان حذف کرد که منجر به داده‌های تمیزتر می‌شود.

کاهش ابعاد را می‌توان به طور کلی به دو رویکرد اصلی دسته‌بندی کرد:

1. انتخاب ویژگی (Feature Selection)

این رویکرد شامل انتخاب زیرمجموعه‌ای از ویژگی‌های اصلی است که بیشترین ارتباط را با مشکل مورد نظر دارند. ویژگی‌های اصلی حفظ می‌شوند، اما تعداد آن‌ها کاهش می‌یابد. آن را به عنوان شناسایی مؤثرترین مواد تشکیل‌دهنده برای یک دستور پخت و کنار گذاشتن بقیه در نظر بگیرید.

2. استخراج ویژگی (Feature Extraction)

این رویکرد ویژگی‌های اصلی را به مجموعه‌ای جدید و کوچک‌تر از ویژگی‌ها تبدیل می‌کند. این ویژگی‌های جدید ترکیبی یا طرح‌هایی از ویژگی‌های اصلی هستند که هدفشان ثبت بیشترین واریانس یا اطلاعات مهم در داده‌ها است. این شبیه به ایجاد جوهر تقطیر شده از مواد اصلی است.

Scikit-learn ابزارهای قدرتمندی برای هر دو رویکرد ارائه می‌دهد. ما بر تکنیک‌هایی تمرکز خواهیم کرد که به کاهش ابعاد، اغلب از طریق انتخاب یا استخراج ویژگی، کمک می‌کنند.

روش‌های انتخاب ویژگی در Scikit-learn

Scikit-learn چندین راه برای انجام انتخاب ویژگی فراهم می‌کند. این روش‌ها را می‌توان به طور کلی در سه دسته گروه‌بندی کرد:

1. روش‌های فیلتر (Filter Methods)

روش‌های فیلتر، ارتباط ویژگی‌ها را بر اساس خصوصیات ذاتی آن‌ها، مستقل از هر مدل یادگیری ماشین خاص، ارزیابی می‌کنند. آن‌ها به طور کلی سریع و از نظر محاسباتی ارزان هستند، که آن‌ها را برای کاوش اولیه داده یا هنگام کار با مجموعه داده‌های بسیار بزرگ ایده‌آل می‌کند. معیارهای رایج شامل همبستگی، اطلاعات متقابل و آزمون‌های آماری هستند.

الف) انتخاب ویژگی مبتنی بر همبستگی

ویژگی‌هایی که با متغیر هدف همبستگی بالایی دارند، مهم تلقی می‌شوند. برعکس، ویژگی‌هایی که با یکدیگر همبستگی بالایی دارند (هم‌خطی چندگانه) ممکن است زائد باشند و می‌توان برای حذف آن‌ها اقدام کرد. ماژول feature_selection در Scikit-learn ابزارهایی برای کمک به این امر ارائه می‌دهد.

مثال: آستانه واریانس (Variance Threshold)

ویژگی‌هایی با واریانس بسیار پایین ممکن است قدرت تمایز زیادی نداشته باشند. کلاس VarianceThreshold ویژگی‌هایی را حذف می‌کند که واریانس آن‌ها به آستانه مشخصی نمی‌رسد. این به ویژه برای ویژگی‌های عددی مفید است.

            
from sklearn.feature_selection import VarianceThreshold
import numpy as np

X = [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]
selector = VarianceThreshold(threshold=0.0)
selector.fit_transform(X)
# Output: array([[2, 0, 3], [1, 4, 3], [1, 1, 3]])

در این مثال، اولین ویژگی (همه صفرها) دارای واریانس صفر است و حذف می‌شود. این یک روش اساسی اما مؤثر برای کنار گذاشتن ویژگی‌های ثابت یا تقریباً ثابت است که قدرت پیش‌بینی ندارند.

مثال: همبستگی با متغیر هدف (با استفاده از Pandas و SciPy)

در حالی که Scikit-learn یک تابع سطح بالا مستقیم برای همبستگی با متغیر هدف در تمام انواع ویژگی‌ها ندارد، این یک گام رایج پیش‌پردازش است. ما می‌توانیم از Pandas و SciPy برای این کار استفاده کنیم.

            
import pandas as pd
import numpy as np
from scipy.stats import pearsonr

# Sample data
data = {
    'feature1': np.random.rand(100),
    'feature2': np.random.rand(100) * 2,
    'feature3': np.random.rand(100) - 1,
    'target': np.random.randint(0, 2, 100)
}
df = pd.DataFrame(data)

# Calculate Pearson correlation with the target
correlations = df.corr()['target'].drop('target')

# Select features with correlation above a certain threshold (e.g., 0.2)
selected_features = correlations[abs(correlations) > 0.2].index.tolist()
print(f"Features correlated with target: {selected_features}")

این قطعه کد نشان می‌دهد که چگونه ویژگی‌هایی را شناسایی کنیم که رابطه خطی با متغیر هدف دارند. برای اهداف باینری، همبستگی نقطه‌ای-سریالی (point-biserial correlation) مرتبط است و برای اهداف دسته‌ای، آزمون‌های آماری دیگر مناسب‌تر هستند.

ب) آزمون‌های آماری

روش‌های فیلتر همچنین می‌توانند از آزمون‌های آماری برای اندازه‌گیری وابستگی بین ویژگی‌ها و متغیر هدف استفاده کنند. اینها به ویژه هنگام کار با ویژگی‌های دسته‌ای یا زمانی که فرضیات خاصی در مورد توزیع داده‌ها وجود دارد، مفید هستند.

ماژول feature_selection در Scikit-learn موارد زیر را ارائه می‌دهد:

f_classif: مقدار F-ANOVA بین برچسب/ویژگی برای وظایف طبقه‌بندی. فرض می‌کند که ویژگی‌ها عددی و هدف دسته‌ای است.
f_regression: مقدار F بین برچسب/ویژگی برای وظایف رگرسیون. فرض می‌کند که ویژگی‌ها عددی و هدف عددی است.
mutual_info_classif: اطلاعات متقابل برای یک متغیر هدف گسسته. می‌تواند روابط غیرخطی را مدیریت کند.
mutual_info_regression: اطلاعات متقابل برای یک متغیر هدف پیوسته.
chi2: آماره‌های خی‌دو برای ویژگی‌های غیرمنفی برای وظایف طبقه‌بندی. برای ویژگی‌های دسته‌ای استفاده می‌شود.

مثال: استفاده از `f_classif` و `SelectKBest`

SelectKBest یک فراتحوّل‌گر (meta-transformer) است که به شما امکان می‌دهد ویژگی‌ها را بر اساس یک تابع امتیازدهی انتخاب‌شده (مانند f_classif) انتخاب کنید.

            
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest, f_classif

iris = load_iris()
X, y = iris.data, iris.target

# Select the top 2 features using f_classif
selector = SelectKBest(score_func=f_classif, k=2)
X_new = selector.fit_transform(X, y)

print(f"Original shape: {X.shape}")
print(f"Reduced shape: {X_new.shape}")

# To see which features were selected:
selected_indices = selector.get_support(indices=True)
print(f"Selected feature indices: {selected_indices}")
print(f"Selected feature names: {[iris.feature_names[i] for i in selected_indices]}")

این مثال نشان می‌دهد که چگونه می‌توان 'k' بهترین ویژگی را بر اساس اهمیت آماری آن‌ها برای طبقه‌بندی انتخاب کرد. مقدار F در f_classif اساساً واریانس بین گروه‌ها (کلاس‌ها) را نسبت به واریانس درون گروه‌ها اندازه‌گیری می‌کند. مقدار F بالاتر نشان‌دهنده رابطه قوی‌تر بین ویژگی و هدف است.

ملاحظات جهانی: هنگام کار با مجموعه داده‌ها از مناطق مختلف (به عنوان مثال، داده‌های حسگر از اقلیم‌های متنوع، داده‌های مالی از سیستم‌های اقتصادی مختلف)، ویژگی‌های آماری می‌توانند به طور قابل توجهی متفاوت باشند. درک مفروضات این آزمون‌های آماری (به عنوان مثال، نرمال بودن برای ANOVA) حیاتی است و آزمون‌های ناپارامتری مانند اطلاعات متقابل ممکن است در سناریوهای متنوع، قوی‌تر باشند.

2. روش‌های Wrapper

روش‌های Wrapper از یک مدل یادگیری ماشین خاص برای ارزیابی کیفیت زیرمجموعه‌های ویژگی استفاده می‌کنند. آن‌ها فرآیند آموزش مدل را در یک استراتژی جستجو "پیچیده" (wrap) می‌کنند تا مجموعه بهینه ویژگی‌ها را بیابند. در حالی که به طور کلی دقیق‌تر از روش‌های فیلتر هستند، به دلیل آموزش مکرر مدل، از نظر محاسباتی بسیار پرهزینه‌تر هستند.

الف) حذف بازگشتی ویژگی (Recursive Feature Elimination - RFE)

RFE با حذف بازگشتی ویژگی‌ها کار می‌کند. این روش با آموزش یک مدل بر روی کل مجموعه ویژگی‌ها آغاز می‌شود، سپس کم‌اهمیت‌ترین ویژگی(ها) را بر اساس ضرایب مدل یا اهمیت ویژگی‌ها حذف می‌کند. این فرآیند تا رسیدن به تعداد مطلوب ویژگی‌ها تکرار می‌شود.

            
from sklearn.datasets import make_classification
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# Generate synthetic data
X, y = make_classification(n_samples=100, n_features=20, n_informative=10, n_redundant=5, random_state=42)

# Use a Logistic Regression model (can be any model that supports coef_ or feature_importances_)
estimator = LogisticRegression(solver='liblinear')

# Initialize RFE to select top 5 features
selector = RFE(estimator, n_features_to_select=5, step=1)
selector = selector.fit(X, y)

X_new = selector.transform(X)

print(f"Original shape: {X.shape}")
print(f"Reduced shape: {X_new.shape}")

# To see which features were selected:
selected_indices = selector.get_support(indices=True)
print(f"Selected feature indices: {selected_indices}")

RFE قدرتمند است زیرا تعاملات بین ویژگی‌ها را که توسط مدل انتخاب شده ارزیابی می‌شود، در نظر می‌گیرد. پارامتر `step` تعداد ویژگی‌هایی را که در هر تکرار حذف می‌شوند، کنترل می‌کند.

ب) انتخاب ویژگی ترتیبی (Sequential Feature Selection - SFS)

در حالی که SFS یک کلاس مستقیم در ماژول اصلی feature_selection Scikit-learn نیست، یک رویکرد مفهومی است که اغلب با استفاده از تخمین‌گرهای Scikit-learn پیاده‌سازی می‌شود. این روش شامل انتخاب رو به جلو (شروع با مجموعه‌ای خالی و افزودن ویژگی‌ها یکی یکی) یا حذف رو به عقب (شروع با همه ویژگی‌ها و حذف آن‌ها یکی یکی) است. SequentialFeatureSelector در sklearn.feature_selection Scikit-learn این را پیاده‌سازی می‌کند.

            
from sklearn.feature_selection import SequentialFeatureSelector
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification

X, y = make_classification(n_samples=100, n_features=20, n_informative=10, n_redundant=5, random_state=42)

estimator = LogisticRegression(solver='liblinear')

# Forward selection: add features until desired number is reached
sfs_forward = SequentialFeatureSelector(
    estimator, n_features_to_select=10, direction='forward', cv=5)
sfs_forward.fit(X, y)
X_new_forward = sfs_forward.transform(X)

print(f"Forward Selection - Reduced shape: {X_new_forward.shape}")

# Backward selection: start with all features and remove
sfs_backward = SequentialFeatureSelector(
    estimator, n_features_to_select=10, direction='backward', cv=5)
sfs_backward.fit(X, y)
X_new_backward = sfs_backward.transform(X)

print(f"Backward Selection - Reduced shape: {X_new_backward.shape}")

پارامتر cv در SequentialFeatureSelector نشان‌دهنده اعتبارسنجی متقابل است که به قوی‌تر کردن انتخاب ویژگی و کاهش احتمال بیش‌برازش به داده‌های آموزشی کمک می‌کند. این یک ملاحظه حیاتی هنگام اعمال این روش‌ها در سطح جهانی است، زیرا کیفیت و توزیع داده‌ها می‌تواند به شدت متفاوت باشد.

3. روش‌های Embedded (نهفته)

روش‌های Embedded (نهفته) انتخاب ویژگی را به عنوان بخشی از فرآیند آموزش مدل انجام می‌دهند. آن‌ها مزیت کم‌هزینه‌تر بودن از نظر محاسباتی نسبت به روش‌های wrapper را دارند در حالی که همچنان تعاملات ویژگی‌ها را در نظر می‌گیرند. بسیاری از مدل‌های تنظیم‌شده (regularized) در این دسته قرار می‌گیرند.

الف) تنظیم L1 (Lasso)

مدل‌هایی مانند Lasso (Least Absolute Shrinkage and Selection Operator) در مدل‌های خطی از تنظیم L1 استفاده می‌کنند. این تکنیک یک جریمه به مقدار مطلق ضرایب اضافه می‌کند، که می‌تواند برخی ضرایب را دقیقاً به صفر برساند. ویژگی‌هایی با ضرایب صفر به طور مؤثر حذف می‌شوند.

            
from sklearn.linear_model import Lasso
from sklearn.datasets import make_regression

# Generate synthetic data
X, y = make_regression(n_samples=100, n_features=20, n_informative=10, random_state=42, noise=10)

# Lasso with alpha (regularization strength)
# A higher alpha leads to more regularization and potentially more zero coefficients
lasso = Lasso(alpha=0.1, random_state=42)
lasso.fit(X, y)

# Get the number of non-zero coefficients (selected features)
non_zero_features = np.sum(lasso.coef_ != 0)
print(f"Number of features selected by Lasso: {non_zero_features}")

# To get the actual selected features:
selected_features_mask = lasso.coef_ != 0
X_new = X[:, selected_features_mask]
print(f"Reduced shape: {X_new.shape}")

LassoCV را می‌توان برای یافتن خودکار مقدار بهینه آلفا از طریق اعتبارسنجی متقابل استفاده کرد.

ب) اهمیت ویژگی‌های مبتنی بر درخت (Tree-based Feature Importances)

روش‌های Ensemble مانند RandomForestClassifier، GradientBoostingClassifier و ExtraTreesClassifier به طور ذاتی اهمیت ویژگی‌ها را فراهم می‌کنند. این اهمیت‌ها بر اساس میزان کمک هر ویژگی به کاهش ناخالصی یا خطا در سراسر درختان در مجموعه محاسبه می‌شوند. ویژگی‌هایی با اهمیت پایین را می‌توان حذف کرد.

            
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
X, y = cancer.data, cancer.target

model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X, y)

# Get feature importances
importances = model.feature_importances_

# Sort features by importance
indices = np.argsort(importances)[::-1]

print("Feature ranking:")
for f in range(X.shape[1]):
    print(f"{f + 1}. feature {indices[f]} ({cancer.feature_names[indices[f]]}) - {importances[indices[f]]:.4f}")

# Select top N features (e.g., top 10)
N = 10
selected_features_mask = np.zeros(X.shape[1], dtype=bool)
selected_features_mask[indices[:N]] = True

X_new = X[:, selected_features_mask]
print(f"Reduced shape after selecting top {N} features: {X_new.shape}")

روش‌های مبتنی بر درخت قدرتمند هستند زیرا می‌توانند روابط غیرخطی و تعاملات ویژگی‌ها را به تصویر بکشند. آن‌ها به طور گسترده‌ای در دامنه‌های مختلف، از تشخیص پزشکی (مانند مثال) تا تشخیص کلاهبرداری مالی در بازارهای مختلف قابل استفاده هستند.

استخراج ویژگی برای کاهش ابعاد

در حالی که انتخاب ویژگی، ویژگی‌های اصلی را حفظ می‌کند، استخراج ویژگی، مجموعه جدید و کاهش‌یافته‌ای از ویژگی‌ها را ایجاد می‌کند. این به ویژه زمانی مفید است که ویژگی‌های اصلی به شدت با هم همبستگی دارند یا زمانی که می‌خواهید داده‌ها را به یک فضای با ابعاد پایین‌تر که بیشترین واریانس را به خود اختصاص می‌دهد، فرافکنی کنید.

1. تحلیل مؤلفه‌های اصلی (Principal Component Analysis - PCA)

PCA یک تکنیک تبدیل خطی است که هدف آن یافتن مجموعه‌ای از محورهای متعامد (مؤلفه‌های اصلی) است که حداکثر واریانس را در داده‌ها به تصویر می‌کشند. اولین مؤلفه اصلی بیشترین واریانس را، دومین مؤلفه بیشترین واریانس بعدی را (متعامد با اولی) و غیره را به تصویر می‌کشد. با نگهداری تنها 'k' مؤلفه اصلی اول، به کاهش ابعاد دست می‌یابیم.

نکته مهم: PCA به مقیاس ویژگی‌ها حساس است. قبل از اعمال PCA، مقیاس‌بندی داده‌های شما (به عنوان مثال، با استفاده از StandardScaler) بسیار مهم است.

            
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.datasets import load_wine

wine = load_wine()
X, y = wine.data, wine.target

# Scale the data
X_scaled = StandardScaler().fit_transform(X)

# Initialize PCA to reduce to 2 components
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

print(f"Original shape: {X.shape}")
print(f"Reduced shape after PCA: {X_pca.shape}")

# The explained variance ratio shows how much variance each component captures
print(f"Explained variance ratio: {pca.explained_variance_ratio_}")
print(f"Total explained variance: {np.sum(pca.explained_variance_ratio_):.4f}")

PCA برای بصری‌سازی داده‌های با ابعاد بالا با کاهش آن‌ها به 2 یا 3 بعد عالی است. این یک تکنیک بنیادی در تحلیل داده‌های اکتشافی است و می‌تواند مراحل مدل‌سازی بعدی را به طور قابل توجهی تسریع کند. اثربخشی آن در دامنه‌هایی مانند پردازش تصویر و ژنتیک مشاهده می‌شود.

2. تحلیل تفکیک خطی (Linear Discriminant Analysis - LDA)

بر خلاف PCA که بدون نظارت است و هدفش حداکثر کردن واریانس است، LDA یک تکنیک تحت نظارت است که هدفش یافتن یک نمایش با ابعاد پایین‌تر است که قابلیت جداسازی بین کلاس‌ها را به حداکثر می‌رساند. این روش عمدتاً برای وظایف طبقه‌بندی استفاده می‌شود.

نکته مهم: LDA نیز نیاز به مقیاس‌بندی ویژگی‌ها دارد. علاوه بر این، تعداد مؤلفه‌ها در LDA حداکثر به n_classes - 1 محدود می‌شود.

            
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris

iris = load_iris()
X, y = iris.data, iris.target

# Scale the data
X_scaled = StandardScaler().fit_transform(X)

# Initialize LDA. Number of components cannot exceed n_classes - 1 (which is 2 for Iris)
lda = LinearDiscriminantAnalysis(n_components=2)
X_lda = lda.fit_transform(X_scaled, y)

print(f"Original shape: {X.shape}")
print(f"Reduced shape after LDA: {X_lda.shape}")

# LDA also has explained_variance_ratio_ but it's class separability
print(f"Explained variance ratio (class separability): {lda.explained_variance_ratio_}")

LDA به ویژه زمانی مفید است که هدف ساخت یک طبقه‌بندی‌کننده باشد که بتواند به خوبی بین دسته‌های مختلف در داده‌های شما تمایز قائل شود، که یک چالش رایج در بسیاری از کاربردهای جهانی مانند تقسیم‌بندی مشتری یا طبقه‌بندی بیماری است.

3. تعبیه همسایگی تصادفی T-توزیع شده (t-Distributed Stochastic Neighbor Embedding - t-SNE)

t-SNE یک تکنیک کاهش ابعاد غیرخطی است که عمدتاً برای بصری‌سازی مجموعه داده‌های با ابعاد بالا استفاده می‌شود. این روش با نگاشت نقاط داده با ابعاد بالا به یک فضای با ابعاد پایین (معمولاً 2 بعدی یا 3 بعدی) کار می‌کند به طوری که نقاط مشابه با فواصل مشابه در فضای با ابعاد پایین مدل‌سازی شوند. این روش در آشکارسازی ساختار محلی و خوشه‌ها در داده‌ها عالی عمل می‌کند.

نکته مهم: t-SNE از نظر محاسباتی پرهزینه است و به طور کلی برای بصری‌سازی به جای یک مرحله پیش‌پردازش برای آموزش مدل استفاده می‌شود. نتایج آن نیز می‌تواند با مقادیر اولیه تصادفی و تنظیمات پارامتر مختلف، متفاوت باشد.

            
from sklearn.manifold import TSNE
from sklearn.datasets import load_digits
import matplotlib.pyplot as plt

digits = load_digits()
X, y = digits.data, digits.target

# For demonstration, we'll use a subset of the data as t-SNE can be slow
subset_indices = np.random.choice(len(X), 1000, replace=False)
X_subset = X[subset_indices]
y_subset = y[subset_indices]

# Initialize t-SNE with 2 components
# perplexity is related to the number of nearest neighbors (e.g., 30 is common)
# n_iter is the number of iterations for optimization
tsne = TSNE(n_components=2, perplexity=30, n_iter=300, random_state=42)
X_tsne = tsne.fit_transform(X_subset)

print(f"Original subset shape: {X_subset.shape}")
print(f"Reduced shape after t-SNE: {X_tsne.shape}")

# Plotting the results (optional, for visualization)
plt.figure(figsize=(10, 8))
scatter = plt.scatter(X_tsne[:, 0], X_tsne[:, 1], c=y_subset, cmap='viridis', alpha=0.7)
plt.title('t-SNE visualization of Digits dataset')
plt.xlabel('t-SNE component 1')
plt.ylabel('t-SNE component 2')
plt.legend(*scatter.legend_elements(), title='Classes')
plt.show()

t-SNE برای درک ساختار ذاتی داده‌های پیچیده و با ابعاد بالا که در زمینه‌هایی مانند ژنومیک یا تحلیل شبکه‌های اجتماعی با آن‌ها مواجه می‌شویم، بسیار ارزشمند است و بینش‌های بصری را در مورد الگوهایی ارائه می‌دهد که ممکن است در غیر این صورت پنهان بمانند.

انتخاب تکنیک مناسب برای مجموعه داده‌های جهانی

انتخاب روش مناسب برای انتخاب یا استخراج ویژگی یک تصمیم یکسان برای همه نیست. چندین عامل، به ویژه برای مجموعه داده‌های جهانی، بر این انتخاب تأثیر می‌گذارند:

ماهیت داده: آیا داده‌های شما عددی، دسته‌ای یا ترکیبی هستند؟ آیا توزیع‌های شناخته‌شده‌ای وجود دارد؟ به عنوان مثال، chi2 برای ویژگی‌های دسته‌ای غیرمنفی مناسب است، در حالی که f_classif برای ویژگی‌های عددی و یک هدف دسته‌ای است.
نوع مدل: مدل‌های خطی ممکن است از تنظیم L1 بهره‌مند شوند، در حالی که مدل‌های مبتنی بر درخت به طور طبیعی اهمیت‌ها را فراهم می‌کنند.
منابع محاسباتی: روش‌های فیلتر سریع‌ترین هستند، پس از آن‌ها روش‌های Embedded، و سپس روش‌های Wrapper و t-SNE قرار دارند.
نیازهای قابلیت تفسیر: اگر توضیح *چرا* یک پیش‌بینی انجام شده، از اهمیت بالایی برخوردار است، روش‌های انتخاب ویژگی که ویژگی‌های اصلی را حفظ می‌کنند (مانند RFE یا L1) اغلب بر روش‌های استخراج ویژگی (مانند PCA) که مؤلفه‌های انتزاعی ایجاد می‌کنند، ترجیح داده می‌شوند.
خطی در مقابل غیرخطی: PCA و مدل‌های خطی روابط خطی را فرض می‌کنند، در حالی که t-SNE و روش‌های مبتنی بر درخت می‌توانند الگوهای غیرخطی را به تصویر بکشند.
تحت نظارت در مقابل بدون نظارت: LDA تحت نظارت است (از متغیر هدف استفاده می‌کند)، در حالی که PCA بدون نظارت است.
مقیاس و واحدها: برای PCA و LDA، مقیاس‌بندی ویژگی‌ها ضروری است. تفاوت‌های مقیاس در داده‌های جمع‌آوری شده از مناطق مختلف جهانی را در نظر بگیرید. به عنوان مثال، ارزش‌های ارزی یا خوانش‌های حسگر ممکن است در کشورها یا انواع حسگرهای مختلف، مقیاس‌های بسیار متفاوتی داشته باشند.
ظرافت‌های فرهنگی و منطقه‌ای: هنگام کار با مجموعه داده‌هایی که شامل رفتار انسانی، جمعیت‌شناسی یا احساسات از زمینه‌های فرهنگی مختلف هستند، تفسیر ویژگی‌ها می‌تواند پیچیده باشد. یک ویژگی که در یک منطقه بسیار پیش‌بینی‌کننده است، ممکن است در منطقه‌ای دیگر به دلیل هنجارهای اجتماعی متفاوت، شرایط اقتصادی یا روش‌های جمع‌آوری داده، نامربوط یا حتی گمراه‌کننده باشد. همیشه هنگام ارزیابی اهمیت ویژگی‌ها در بین جمعیت‌های متنوع، تخصص حوزه را در نظر بگیرید.

بینش‌های عملی:

ساده شروع کنید: برای ارزیابی سریع و حذف نویزهای واضح، با روش‌های فیلتر (مانند آستانه واریانس، آزمون‌های آماری) شروع کنید.
تکرار و ارزیابی: روش‌های مختلف را آزمایش کنید و تأثیر آن‌ها را بر عملکرد مدل خود با استفاده از معیارهای مناسب و اعتبارسنجی متقابل ارزیابی کنید.
بصری‌سازی: از تکنیک‌هایی مانند PCA یا t-SNE برای بصری‌سازی داده‌های خود در ابعاد پایین‌تر استفاده کنید، که می‌تواند ساختارهای زیربنایی را آشکار کرده و استراتژی انتخاب ویژگی شما را آگاه سازد.
تخصص حوزه کلیدی است: با کارشناسان حوزه همکاری کنید تا معنی و ارتباط ویژگی‌ها را درک کنید، به ویژه هنگام کار با داده‌های جهانی پیچیده.
رویکردهای Ensemble را در نظر بگیرید: ترکیب چندین تکنیک انتخاب ویژگی گاهی اوقات می‌تواند نتایج بهتری نسبت به تکیه بر یک روش واحد به همراه داشته باشد.

Pipeline در Scikit-learn برای گردش کار یکپارچه

شیء Pipeline در Scikit-learn به طور استثنایی برای ادغام مراحل پیش‌پردازش، از جمله انتخاب/استخراج ویژگی، با آموزش مدل مفید است. این کار تضمین می‌کند که انتخاب ویژگی شما به طور مداوم در هر بخش از اعتبارسنجی متقابل انجام شود، از نشت داده جلوگیری کرده و نتایج قابل اطمینان‌تری تولید کند. این امر به ویژه هنگام ساخت مدل‌هایی که در بازارهای جهانی متنوع مستقر خواهند شد، حیاتی است.

            
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.datasets import load_breast_cancer

bc = load_breast_cancer()
X, y = bc.data, bc.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Create a pipeline that first scales, then selects features, then trains a classifier
pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('selector', SelectKBest(score_func=f_classif, k=10)),
    ('classifier', LogisticRegression(solver='liblinear'))
])

# Train the pipeline
pipe.fit(X_train, y_train)

# Evaluate the pipeline using cross-validation
cv_scores = cross_val_score(pipe, X_train, y_train, cv=5)
print(f"Cross-validation scores: {cv_scores}")
print(f"Average CV score: {np.mean(cv_scores):.4f}")

# Make predictions on the test set
accuracy = pipe.score(X_test, y_test)
print(f"Test set accuracy: {accuracy:.4f}")

استفاده از Pipeline تضمین می‌کند که کل فرآیند—از مقیاس‌بندی تا انتخاب ویژگی تا طبقه‌بندی—به عنوان یک موجودیت واحد در نظر گرفته شود. این بهترین روش برای توسعه مدل قوی است، به ویژه هنگامی که مدل‌ها برای استقرار جهانی در نظر گرفته شده‌اند، جایی که عملکرد ثابت در توزیع‌های مختلف داده کلیدی است.

نتیجه‌گیری

کاهش ابعاد از طریق انتخاب و استخراج ویژگی، گامی حیاتی در ساخت مدل‌های یادگیری ماشین کارآمد، قوی و قابل تفسیر است. Scikit-learn یک جعبه ابزار جامع برای مقابله با این چالش‌ها فراهم می‌کند و دانشمندان داده را در سراسر جهان توانمند می‌سازد. با درک روش‌های مختلف—فیلتر، Wrapper، Embedded، و تکنیک‌های استخراج ویژگی مانند PCA و LDA—می‌توانید تصمیمات آگاهانه‌ای را متناسب با مجموعه داده و اهداف خاص خود اتخاذ کنید.

برای مخاطبان جهانی ما، ملاحظات فراتر از صرفاً انتخاب‌های الگوریتمی است. درک منشأ داده، سوگیری‌های احتمالی معرفی شده توسط جمع‌آوری ویژگی‌ها در مناطق مختلف، و نیازهای خاص تفسیرپذیری ذینفعان محلی، حیاتی هستند. استفاده از ابزارهایی مانند Pipeline در Scikit-learn یک گردش کار ساختارمند و قابل بازتولید را تضمین می‌کند که برای استقرار راه‌حل‌های هوش مصنوعی قابل اعتماد در زمینه‌های بین‌المللی متنوع ضروری است.

هنگامی که در پیچیدگی‌های علم داده مدرن گشت و گذار می‌کنید، تسلط بر قابلیت‌های انتخاب ویژگی Scikit-learn بدون شک یک دارایی قابل توجه خواهد بود و شما را قادر می‌سازد تا پتانسیل کامل داده‌های خود را، صرف نظر از منشأ آن، آزاد کنید.